Epoch 13 - 行人重識別論文筆記 x ABD-Net - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 12 屆 iThome 鐵人賽

DAY 13

AI & Data

AI x 日常 x 30天系列第 13 篇

Epoch 13 - 行人重識別論文筆記 x ABD-Net

12th鐵人賽

AlittleQ

2020-09-23 22:35:43

1433 瀏覽

分享至

今天再來介紹一篇person re-id的論文。

ABD-Net: Attentive but Diverse Person Re-Identification

很多實驗證明attention是有效的，但是attention特徵通常不夠diverse(多元化)，
意思就是attention機制傾向於將特徵集中在更緊湊的子空間，
但這樣對於算特徵距離，是不利的，因為會分布得太緊密。

因此，作者認為，更理想的特徵embedding應該是attentive和diverse兼具的：
attentive 目的在糾正錯位、消除背景干擾，並注重身體外觀的具判別力的局部區域。
diverse 鼓勵特徵之間有較低的相關性，從而更好地匹配，並可能使特徵空間更加全面。

提出一個Attentive但是Diverse的架構，叫做ABD-Net
Attentive：作者整合了兩種的注意機制
CAM有助於實現channel之間的feature level的訊息聚合
PAM則可捕獲身體和部位位置的空間感知。
並且它們被發現是互補的，並且完全有利於Re-ID。

CAM

在CNN中的高層的卷積層比較跟語義相關，並且通常是類別相關的，就是有分組
他們假設在Re-id中，有些high-level channel會share相似的語義，例如前景人，背景..
因此CAM的作用就是去將這些相似語義的channel群組的資訊互相聚合。

先把CxHxW的input feature map， reshape 成 NxC 和 CXN，
然後相乘然後經過softmax得到channel affinity matrix(CxC)，
再乘原本的CxN，變回原本一樣大小CxHxW，有點權重的感覺。
最後在把每個element加起來，得到output。

PAM

PAM跟CAM很類似，但是他是希望能聚合空間中的語義相關訊息，
首先將輸入特徵映射A(CxHxW) 分別輸入三個卷積層， 以生成特徵映射B, C, D(CxHxW)，
然後計算pixels affinity matrix S，他是NxN，和CAM相反，
其他部份計算和CAM類似，最終也生成輸出相同大小的feature map。

SVDO

那Diverse的部分，
這邊是參考CVPR2017的re-id方法SVD-Net，
SVD-Net的作者認為，全連接層權重的作用可以看做一組向量投影，
當權重直接相關性較高時（可以理解為權值冗餘），特徵差異小，直接導致檢索中距離差異小，無法獲取差異化的特徵。
作者提出用SVD進行降維操作，提高權重的正交性，因為正交就會線性獨立，從而提高檢索性能。

本篇作者提出兩個module，
O.F.：作用在feature space，減少可直接有利於匹配的特徵相關性；希望能多多參考其他特徵，看廣一點。
O.W.：作用在卷積層的weight，鼓勵filter多樣性並提高學習capacity。